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摘 要 : 为 分 析 栽 培 和 野生 大 豆 线粒体 基因 组 的 密码 子 使 用 特征 差异 ， 该 文 以 其 线粒体 基因 
组 编码 序列 为 研究 对 象 ， 比 较 其 密码 子 偏 性 形成 的 影响 因素 和 演化 过 程 。 结 果 表 明 : (1) 栽 
培 大 豆 和 野生 大 豆 线粒体 基因 组 编码 区 的 GC 含量 分 别 为 44.56% 和 44.58%， 说 明 栽 培 大 豆 
和 野生 大 豆 线粒体 编码 基因 均 富 含 AT 碱 基 。(2) 栽培 大 豆 和 野生 大 豆 线粒体 基因 组 密码 
子 第 1、 第 2 位 GC 含量 平均 值 与 第 3 位 GC 含量 的 相关 性 均 呈 极 显 著 水 平 ， 说 明 突 变 在 其 
密码 子 偏 性 形成 中 的 作用 不 可 忽略 ; PR2-plot 分 析 显 示 ， 在 同 义 密码 子 第 3 位 碱 基 的 使 用 
频率 上 , EA (IC T- WERE; Nc-plot 分析 中 Ne 比值 位 于 -0.1~0.2 区 间 的 基因 数 占 总 基因 数 的 95% 
以 上 ; 突变 和 选择 等 多 重 因素 共同 作用 影响 了 大 豆 线粒体 基因 组 编码 序列 密码 子 使 用 偏 性 的 
Zn. (3)20、21 个 密码 子 分 别 被 确定 为 栽培 大 豆 和 野生 大 豆 线 粒 体 基因 组 编码 序列 的 最 优 
密码 子 ， 其 中 除 丝氨酸 TCC 密码 子 外 均 以 A 或 工 结尾 。 综 上 结果 显示 ， 栽 培 大豆 线 粒 体 密 
码 子 偏 性 的 形成 受 选 择 的 影响 高 于 野生 大 豆 , 这 可 能 是 栽培 大 豆 由 野生 大 豆 经 长 期 人 工 栽 培 
驯化 的 结 
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Abstract: The characteristic of codon usage in mitogenome of wild and cultivated soybean was 
studied and compared to explore the main factors affecting codon usage bias and codon 
evolution.The results were as follows: (1) The GC content in the coding region of mitochondrial 
genome of cultivated soybean and wild soybean was 44.5696 and 44.58% respectively, which 
indicated that the coding sequences of soybean mitogenome was rich in A/T base. (2) PR2-plot 
analysis showed that the third base of codon usage was biased, where pyrimidine was used more 
frequently than purine; Nc-plot analysis revealed that the number of genes with Nc ratio in the 
range of - 0.1-0.2 accounts for more than 95% of the total number of genes. The above-mentioned 
results showed that the multiple factors such as mutation and selection affected the formation of 
codon usage bias in soybean mitogenome. GC1&2 value was significantly correlated with GC3, 
suggesting that codon bias in the mitogenome of cultivated and wild soybeans was mainly affected 
by mutation. (3) In addition, 20 and 21 codons were identified to be the optimal codons for the 


mitogenome of cultivated and wild soybeans, with most of the preferred synonymous codons 
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ending with A or T base. The formation of mitochondrial codon bias of cultivated soybean was 
more affected by selection than that of wild soybean, which may be the result of long-term 
artificial cultivation and domestication of cultivated soybean. 
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同 义 密码 子 使 用 偏好 性 是 指 编码 序列 中 同 义 密 码 子 被 生物 体 偏 爱 使 用 的 不 同 频率 
(Hanson et al., 2018; Qiu et al., 2011)。 由 于 生物 界 通用 密码 子 的 简 并 性 , 每 个 氨基 酸 ra 
应 1 种 密码 子 ， 最 多 有 6 种 对 应 的 密码 子 。 同 义 的 三 联 体 密码 子 通常 不 是 被 随机 使 用 的 ， 这 
种 偏好 性 确保 了 最 优 密码 子 可 以 与 数量 EPE 
同时 避免 了 氨基 酸 的 错 迭 ， 减 少 了 翻译 加 工 差 错 (Wei etal., 2014) 。 研 究 同 义 密码 子 使 用 
BE. 以 及 导致 其 形成 的 因素 , 可 以 帮助 更 好 地 了 解 生物 基因 组 的 特征 、 分 子 进化 以 及 生 
适应 性 等 。 之 前 关于 陆地 植物 全 基因 组 和 叶绿体 基因 组 密码 子 偏 性 的 相关 研究 较 多 
ea et al., 2017)， 但 植物 线粒体 基因 组 的 密码 子 使 用 模式 及 其 相关 作用 力 尚未 得 到 
很 好 的 研究 。 
作为 一 种 细胞 核 外 的 遗传 系统 ， 线 粒 体 基 因 组 具有 具有 重 排 进化 快 、 叶 绿 体 DNA 插入 
等 结构 特点 。 目 前 ， 对 线粒体 基因 组 的 研究 主要 体现 在 对 基因 的 结构 和 功能 、 基 因 表 达 的 时 
空调 控 、 核 质 互 作 、 分子 进 化 规律 、 物 种 的 起 源 进化 以 及 线粒体 的 起 源 等 生物 学 领域 的 研究 
F ( 夏 玉玲 等 ，2008; Kong etal., 2013). mtDNA 已 被 广泛 应 用 于 物种 鉴定 、 种 内 母系 演化 、 
| 种 间 系 统 发 育 、 种 群 系统 进化 及 遗传 多 样 性 分 析 等 方面 的 研究 (Galtier et al., 2009; Wei et al., 
2014; 农 全 东 等 , 2019; 李 平 等 , 2019)。 高 等 导 物 的 线 科 体 基 因 组 具有 RNA 编辑 和 密码 子 信 
好 性 等 特殊 的 表达 方式 ( 李 玉 秋 等 ，2011)。 了 解 植物 线粒体 基因 组 密码 子 的 使 用 偏好 ， 可 
以 更 好 地 了 解 其 线粒体 基因 组 进化 过 程 。 
大 豆 是 豆 科 大 豆 属 一 年 生 草 本 植物 ,一 年 生 野 生 大 豆 (Glycine soja) HRK (Glycine. 
max) 的 祖先 种 ， 是 开展 栽培 大 豆 遗 传 育种 工作 的 宝贵 种 质 。 栽 培 大 豆 (G. max) 是 从 野生 
大 豆 (G. soja) 经 过 人 工 改良 驯化 和 长 期 定向 选择 逐渐 积累 有 益 农艺 性 状 演化 而 成 的 。 虽 然 栽 
培 大 豆 和 野生 大 豆 的 线粒体 全 基因 组 已 完成 测序 (Sajjad et al., 2018, Chang et al., 2013), fH 
关于 两 者 的 mtDNA 编码 基因 的 密码 子 使 用 模式 比较 的 研究 尚未 见报 道 。 比 较 研究 野生 大 豆 
和 栽培 大 豆 mtDNA 编码 基因 的 密码 子 偏好 性 ,能够 更 好 地 揭示 两 个 同属 物种 的 线粒体 基因 
表达 系统 差异 和 进化 差异 。 本 研究 拟 ee， 
象 ， 对 其 密码 子 使 用 特征 进行 系统 分 析 ， 揭示 影 响 其 密码 子 偏 性 形成 的 主要 因素 ， 并 确定 
优 密码 子 。 通 过 比较 两 个 同属 物种 对 线粒体 编码 序列 密码 子 使 用 的 差异 ， 以 期 为 大 豆 在 人 工 
驯化 进程 中 线粒体 表达 系统 遗传 变异 的 深入 研究 商定 理论 基础 。 


1 研究 方法 
— 1.1 数据 来 源 
在 NCBI 数据 库 检 索 一 年 生 野 生 大 豆 和 栽培 大 豆 的 线粒体 基因 组 序列 ， 其 GenBank 登 
录 号 分 别 为 NC_039768.1 和 NC 020455.1。 分 别 下 载 2 个 物种 的 线粒体 基因 组 所 有 编码 序列 ， 

剔除 重复 的 编码 序列 以 及 小 于 300 bp 的 编码 序列 ， 并 经 开放 阅读 框 研 判 ， 符 合 条 件 的 余下 
人 码 序 列 用 于 本 研究 的 偏 性 分 析 。 
12 方法 
1.2.1 中 性 绘图 分 析 

分 别 统计 野生 大 豆 和 栽培 大 豆 线粒体 基因 组 各 CDS 在 密码 子 第 1、 第 2 和 3 位 的 GC 含 
以 GC3〈 第 3 位 GC 含量 ) 为 横 坐 标 ， 以 GC2《〈 第 2 位 GC 含 EO 和 GC1 (第 1 位 GC 含 量 ) 的 平 
均值 为 纵 坐 标 《〈 计 为 GC12) 绘制 二 维 散 点 图 ， 以 分 析 三 联 体 密码 子 3 个 位 置 碱 基 组 成 的 相 
关 性 〈Sueoka, 1988 )。 若 GC12 与 GC3 的 相关 性 不 显著 ， 则 表明 密码 子 第 1、 第 2 位 与 第 3 位 碱 
基 使 用 存在 差异 ， 选 择 压力 对 密码 子 偏 性 影响 较 大 ; 若 GC12 与 GC3 显 著 相 关 ， 表 明 密 码 子 
第 1、 第 2 位 与 第 3 位 碱 基 使 用 无 差异 ， 密 码 子 偏 性 的 形成 受 突变 的 影响 大 。 
1.2.2 相对 同 义 密码 子 使 用 度 分 析 

应 用 CodonW 软 件 计算 获得 各 编码 基因 的 有 效 密码 子 数 (Nc 值 ) 密 码 子 偏爱 指数 (Codon 
Bias Index, CBI)、 最 优 密码 子 使 用 频率 (Frequency of Optimal Codons，Fop )。 利 用 CAIcal 
在 线 服 务 器 对 大 豆 线 粒 体 基 因 组 编码 序列 的 相对 同 义 密码 子 使 用 度 Crelative synonymous 
codon usage, RSCU) 进行 分 析 (Puigbo et al., 2008) 。 若 RSCU=1， 表 明 该 密码 子 的 使 用 无 
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偏好 性 ; 若 RSCU>1, 表明 该 密码 子 的 使 用 频率 大 于 同 义 密码 子 使 用 的 平均 频率 ; 若 RSCU<1， 
则 表明 低 于 平均 频率 。 
1.2.3 Nc-plot 绘图 分 析 
以 GC3s 为 横 坐 标 ，Nc 值 为 纵 坐 标 ， 作 散 点 图 ， 以 探讨 碱 基 组 成 对 密码 子 偏好 性 的 影响 ; 
以 仅 由 碱 基 组 成 决定 密码 子 偏好 性 时 的 理论 值 作 标准 曲线 , 标准 曲线 反映 了 在 突变 压力 下 的 
Nc 和 GC3s 的 函数 关系 (Wright et al., 1990) 。 理论 Nc 值 计算 公 式 为 Ne 二 2 十 GC3s 十 29/[GC3s 
2 十 (1 一 GC3s)?]。 
1.2.4 奇偶 偏好 分 析 
PR2 (parity rule 2, PR2) 分 析 ， 为 避免 由 密码 子 第 3 位 碱 基 的 AMT 或 TA 和 G/C 或 C/G 
的 突变 不 均衡 ， 仅 选择 4 种 密码 子 编码 的 氨基 酸 ， 即 丙 氨 酸 、 亮 氨 酸 、 且 氛 酸 、 丝 氮 酸 、 苏 
氨 酸 、 纺 氨 酸 、 精 氨 酸 和 上 甘氨酸， 进行 密码 子 第 3 位 上 4 种 碱 基 组 成 的 分 析 。 以 每 个 基因 
A3/(A3+T3) 值 作 纵 坐标 ，G3/(G3+C3) 值 作 横 坐标 ， 以 平面 散 点 图 展示 各 基因 碱 基 组 成 。 中 
心 点 代表 C=G 且 A=T, 由 中 心 点 向 坐标 点 发 出 的 矢量 则 表示 偏 倚 程度 和 方向 (Sueoka, 1999). 
1.2.5 最 优 密码 子 分 析 
以 CDS 的 Nc 值 为 偏 性 标准 , 将 大 豆 线粒体 基因 组 编码 基因 中 Ne 值 居于 最 低 和 最 高 
极 的 10% 基 因 分 别 构 成 高 、 低 表达 组 ， 统 计 两 组 的 RSCU 值 。 当 两 组 间 人 RSCU (高 表达 组 
RSCU 值 一 低 表达 组 RSCU 值 ) 大 于 0.08 密码 子 定义 为 高 表达 密码 子 。 将 整体 RSCU »1 的 
T 密码 子 确定 为 高 频率 密码 子 , 同 时 满足 上 述 2 种 条 件 的 密码 子 定义 为 最 优 密码 子 (Wang et al., 
a 2018)。 
2 结果 与 分 析 
2.1 密码 子 使 用 特征 
栽培 大 豆 和 野生 大 豆 在 线粒体 基因 组 编码 区 的 碱 基 组 成 上 基本 一 致 ， 其 总 体 GC 含 量 
别 为 44.56% 和 44.58%。 而 它们 的 整个 线粒体 基因 组 GC 含量 均 为 45.03%。 栽 培 大 豆 和 野生 大 
豆 的 线粒体 编码 基因 在 密码 子 3 个 不 同位 置 的 碱 基 GC 含量 也 有 所 差异 , 密码 子 第 一 位 碱 基 的 
GC 含量 最 高 ， 分 别 为 48.27%、48.31%; 第 二 位 分 别 为 43.76%、43.52%; 第 三 位 分 别 为 
41.64%、41.92%， 旺 现 出 GC1>GC2> GC3 的 趋势 〈 表 1)。 也 表明 两 个 物种 线粒体 编码 基因 
TE A, T RE. 


表 1 野生 大 豆 和 栽培 大 豆 线粒体 基因 组 密码 子 不 同位 置 GC 含量 (单位 : 90) 


Table 1 GC content of different positions of codon in Glycine mitogenome (Unit: 96) 


物种 Species GCall GCcds GCI GC2 GC3 
— 栽培 大 豆 45.03 44.56 48.27 43.76 41.64 
p- G. max 
o 导 生 大 豆 45.03 4458 4831 4352 4192 
G. soja 


栽培 大 豆 和 野生 大 豆 的 Ne 与 GC3 分 别 呈 显著 相关 和 极 显著 相关 , 与 GC1 和 GC2 的 相 
关 性 均 未 达 显著 水 平 , 说 明 其 线粒体 编码 基因 密码 子 第 3 位 上 的 碱 基 组 成 对 密码 子 偏 性 影响 
较 大 。 线 粒 体 基 因 组 编码 序列 的 GC1、GC2 和 GC3， 在 野生 大 豆 中 呈 两 两 显著 相关 ， 表 明 
其 密码 子 第 1、 第 2 和 3 位 的 碱 基 组 成 相似 ; 而 在 栽培 大 豆 中 GC1 与 GC2 及 GC3 的 相关 性 
均 未 达 显 著 水 平 ， 仪 GC2 和 GC3 显著 相关 ， 表 明 其 密码 子 第 1 位 与 第 2、 第 3 位 的 碱 基 组 
成 不 同 , 第 2 和 3 位 的 碱 基 组 成 相似 。 在 野生 大 豆 中 ,Nc 还 与 线粒体 基因 组 编码 基因 的 GC 
含量 (GCeds) 及 最 优 密码 子 使 用 频率 (Fop) 呈 极 显著 相关 ， 与 CBI 呈 显 著 相关 ; MER 
培 大 豆 中 ，Nc GCeds 及 Fop 均 不 显著 〈 表 2) 。 表 明 两 种 大 豆 属 植物 线粒体 基因 组 密码 
子 偏 性 的 影响 因素 有 所 差异 。 


表 2 大 豆 线粒体 基因 


密码 子 偏 性 相关 参数 的 相关 性 


Table 2 The correlation of main parameters of gene codons in Glycine MtDNA 


FEKE 栽培 大 豆 G. max 

G. soja GCI GC2 GC3 Nc GC3s L aa GCcds Gravy CAI CBI Fop 
GCI1 - 0.125 0.187 0.136 0.204 0.176 0.571" .-0.239' 0.094 0.034 0.029 
GC2  0226' - 0.247 -0.126 0.272! -0.063 0.680" -0.105 0.170 0.408" 0.449" 


GC3 0.292* 0.226" - 


Nc 0.124 0.104 0.398 


GC3s 0.298" 0.234' 0.992 


0.264* 0.989" -0.301 


A» 


" 0.766" -0.222' 0.078 


- 0.2067 0.056 0.144 -0.214 -0.137 


” 0.410” - -0.303" 0.780” .-0.264' 0.077 


L aa 0.181 -0.060 -0.225' 0.042  -0228' - 


GCcds 0.684" 0.683" 0.748 


-0.143 0.190 -0.116 


" 0.308" 0.750" -0.068 - -0.276” 0.166 


Gravy -0.152 -0.210 -0.322" -0.124 -0.348" 0.220” -0.330" - 0.311™ 


CAI 0.182 -0.104 -0.007 0.104 -0.010 -0.028 0.025 0.232” - 


CBI 0.193 0.279' 0.455 


Fop 0.169 0.327" 0.474 


" (0.273 0.478"  -0.165 0.449" -0.104 0.435" 


" 0.290" 0.499"  -0.17 


HE: **. 在 0.01 水 平 上 显著 相关 ; *. 在 0.05 水 平 上 显著 


1 0.471" -0.245” 0.458" 


相关 。 


0.564" 0.566" 


-0.009 . 0.008 


0.584" 0.588" 


-0.308"* -0.295” 


0.536" 0.555" 


0.017 -0.095 


0.564" 0.564" 


0.966** - 


Note: One asterisk (*) and two asterisks (**) indicate correlations at a level of 0.05 and 0.01, respectively. 


2.2 中 性 绘图 分 析 


栽培 大 豆 和 野生 大 豆 线粒体 基因 组 各 基因 的 中 性 绘图 分 析 (图 1) ， 各 基因 坐标 点 未 沿 
对 角 线 趋势 分 布 。 栽 培 大 豆 线 粒 体 CDS 的 GC12 分 布 在 0.3125~0.5680 ，GC3 分 布 在 


0.3016~0.6190; 一 年 生 野 生 大 豆 线 粒 体 CDS 的 GC12 含 量 分 布 在 0.3423~0.6045，GC3 分 布 在 


0.2700~0.6095。 两 个 物种 GC12 和 GC3 的 相关 系数 分 别 为 0.326 和 0.329， 双 侧 检验 表明 其 相关 


如 自然 选择 ) 可 能 对 密码 子 人 


择 的 影响 高 于 野生 大 豆 ， 这 可 


局 好 性 形成 的 影响 较 小 。 
可 能 是 大 豆 长 期 人 工 栽 1 


凯 好 性 的 形成 有 重要 影响 
栽培 大 豆 线 粒 体 密 码 子 
说 驯化 的 结果 ，。 


性 达 极 显著 水 平 ， 回 归 曲 线 斜率 分 别 为 0.1739 和 0.21。 说 明 密 码 子 第 1 、 第 2 位 与 第 3 位 碱 
基 的 碱 基 组 成 和 变异 模式 相似 ， 突 变 对 基因 密码 子 人 


， 其 他 因素 〈 例 


局 性 的 形成 受 选 
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A. 栽培 大 豆 ; B. 野生 大 豆 。GC12 表示 密码 子 第 1、 第 2 位 碱 基 GC 平均 含量 ; GC3 表示 第 3 位 碱 基 GC 含 


ja 
A 


A. G. max; B. G. soja. GCi» means average GC content of the first and the second position of these codons, GCs means the GC 


content of the third position of codons. 


图 1 碱 基 组 成 对 密码 子 偏 性 影响 的 中 性 绘图 分 析 


Fig.1 Neutrality plot analysis of the effect of base composition on codon bias 


243 Ne 与 GC3s 的 关联 分 析 


以 GC3s 为 横 坐 标 ， 各 基因 Nc 值 为 纵 坐 标 绘制 Nc-plot 曲 线 ， 以 进一步 判断 突变 或 选择 等 


因素 对 大 豆 线 粒 体 基因 组 编码 序列 密码 子 偏好 性 形成 的 影响 。 根 据 (Ne 预期 一 Nc 实际 〉 /Nc 


预期 的 公式 计算 Ne 比值 〈 表 3) 。 栽 培 大 
体 基 因 占 70% 以 上 , 这 些 基因 对 应 的 散 点 


点 偏离 于 标准 曲线 下 方 〈 图 2) ， 其 Nc 实 
子 偏好 形成 更 多 地 受 选择 的 影响 。 


GC3s 


豆 和 野生 大 豆 Nc 比 值 分 布 在 - 0.1~ 0.1. 区 间 的 线 粒 
集中 分 布 在 标准 曲线 附近 ,其 Nc 实 际 值 和 预期 值 差 


异 较 小 , 表明 这 些 线粒体 基因 的 密码 子 偏 好 性 的 形成 主要 受 突变 因素 的 影响 ; 而 其 余 基 因 散 


际 值 和 预期 值 之 间 相 差 较 大 ， 表 明 这 些 基 因 的 密码 


0.0 0.2 0.4 0.6 0.8 L0 


A. 栽培 大 豆 ; B. 野生 大 豆 。Nc 表 示 有 效 密码 子 数 ; GC3s 表 示 同 义 密码 子 第 3 位 核 甘 酸 的 平均 GC 含 量 。 


A. G. max; B. G. soja. Nc indicated effective numb 
synonym codons. 


er of condon; GC3s indicate the GC content of the third position of 


图 2 线粒体 基因 的 Nc-plot 分 析 


Fig.2 Nc-plot analysis on mitochondrial gene in Glycine 
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表 3 ”Nc 比值 频率 分 布 
Table 3 Distribution of Nc ration 


野生 大 豆 栽培 大 豆 
组 限 组 中 值 G. soja G. max 
lass Clasa mad Frequency number Frequency Frequency number Frequency 
boundary value 
-0.20~0.10 -0.15 1 0.012 1 0.013 
-0.10~0 -0.05 19 0.235 16 0.2 
0~0.1 0.05 41 0.506 42 0.525 
0.1~0.2 0.15 20 0.247 20 0.25 
0.20.3 0.25 0 0 1 0.013 
总 数 
Total 81 1 80 1 


2.4 PR2-plot4) fr 

采用 PR2-plot 方 法 分 析 栽 培 大 豆 和 野生 大 豆 线粒体 基因 组 CDS 的 4 种 同 义 密码 子 第 3 位 
碱 基 组 成 〈 图 3) 。 结 果 表 明 ， 散 点 并 不 是 均匀 地 分 布 于 PR2 平 面 图 中 的 4 个 区 域内 ，50% 以 
上 散 点 位 于 平面 图 的 左下 区 域 ， 表 明 在 同 义 密码 子 第 3 位 碱 基 的 使 用 频率 上 ，A 低 于 T，G 低 
于 C。 若 密码 子 使 用 偏好 性 仅 由 突变 影响 ， 则 同 义 密码 子 第 3 位 4 种 碱 基 的 使 用 频率 理论 值 相 
等 ， 即 A=T，C=G。A 4Uü T 以 及 G 和 C 的 使 用 频率 不 均衡 性 ， 表 明 两 种 大 豆 线 粒 体 基 
因 组 密码 子 的 使 用 偏好 性 由 突变 和 选择 等 因素 共同 影响 。 


A B 
m | ^ e [2 e e v 
分 B ee 
中 e S, 7^ n ° * ee " 
m A jos epe o 
$ uy. 3 AOO E 
p f. 4 e - 4 e :? e 
* 4$ t 9 di idi: 
. è ic 
. e 
0.0 
0.0 : 0.0 0.5 10 
0.0 0.5 1.0 G3/(G3+C3) 
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图 3 栽培 大 豆 CA) 和 野生 大 豆 B) 线粒体 基因 的 PR2-plot 分 析 
Fig.3 PR2-plot analysis on mitochondrial gene in G. max (A) and G. soja (B) 


2.5 最 优 密 码 子 分 析 

对 栽培 大 豆 和 一 年 生 野 生 大 豆 线粒体 基因 组 各 编码 序列 的 Nc 值 进行 排序 ， 分 别 从 两 极 
各 选 出 8 个 基因 构建 高 、 低 表达 组 。 按 组 计算 各 基因 同 义 密码 子 的 RSCU 值 ， 并 根据 对 高 
表达 密码 子 和 高 频率 密码 子 的 定义 , 最 终 分 别 确定 了 栽培 大 豆 和 野生 大 豆 TIT. TTA, CTT, 
ATT, GTA, TCC, CCT, ACT, ACA, GCT, CAA, AAT, AAA, GAT, GAA, CGT, 
AGA, GGT 等 18 个 共有 的 最 优 密码 子 。 此 外 , 确定 了 CAT 和 CGA 为 栽培 大 豆 的 最 优 密码 
F; GTT, TGT 和 GGA 为 野生 大 豆 的 最 优 密码 子 。 以 上 最 优 密码 子 中 以 A 结尾 有 9 个 ， 以 
T 结尾 的 有 13 个 ， 以 C 结尾 的 有 1 个， 无 以 G 结尾 的 最 优 密码 子 。 上 暗示 了 大 豆 线 粒 体 基 因 
组 偏好 于 使 用 A 或 工 结尾 的 密码 子 〈 表 4)。 


表 4 大 豆 线粒体 编码 基因 的 相对 同 义 密码 子 使 用 度 
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Table 4 The relative synonymous codon usage of mitochondrial genes in Glycine 


RISKE C max 野生 大 豆 G soja 
氨基 酸 。 ”密码 子 E TT 
Amino acid Codon 基因 组 基因 组 B ied 
pinna experssion experssion cenang experssion experssion 

Phe/F TTT* 1. 086 1. 103 1. 000 1. 128 1. 000 0. 889 
TIG 0.914 0. 897 1. 000 0. 872 1. 000 1.111 
Leu/L TTA* 1. 248 1. 552 1. 100 1. 230 1. 367 0. 804 
TTG 0. 996 1. 007 1. 050 1. 050 1. 063 1. 237 
CTT* 1. 362 1. 385 1. 300 1. 398 1. 557 1. 361 
CTC 0. 804 0. 671 1. 150 0. 792 0. 570 1. 237 
A 0. 936 0. 671 0. 800 0. 888 0. 835 0. 804 
TG 0. 654 0. 713 0. 600 0. 642 0. 608 0. 557 
Ile/I ATT* 1.254 1.514 1. 017 1. 221 1. 387 1. 109 
T 0. 885 0. 943 1. 220 0. 924 0. 903 1. 043 
0. 861 0. 543 0. 763 0. 855 0. 710 0. 848 
Val/V GTT* 1. 208 1.278 1.254 1. 156 1. 151 1. 018 
GTC 0. 852 0. 722 0. 836 0. 836 0. 822 1. 309 
GTA* 1. 024 1. 333 1. 075 1. 000 1. 370 1. 018 
GTG 0. 920 0. 667 0. 836 1. 008 0. 658 0. 655 
Ser/S TCT 1. 368 1. 477 1. 455 1. 338 1. 422 1. 620 
TCC* 1. 140 1. 385 0. 864 1. 140 1. 378 1. 051 
TCA 1. 134 1. 200 1. 227 1.104 1. 067 1. 226 
TCG 0. 714 0. 554 0. 864 0. 840 0. 622 0. 745 
AGT 0. 900 0. 738 0. 727 0. 900 0. 978 0. 657 
AGC 0. 684 0. 646 0. 864 0.678 0. 533 0. 701 
Pro/P CCT* 1. 452 1.928 1. 014 1. 448 2. 089 1. 0625 
CCC 0. 908 0. 530 0. 732 0. 888 0. 578 1. 000 
CCA 1. 012 1. 012 1. 352 1. 024 0. 889 1. 125 
CCG 0. 628 0. 530 0. 901 0. 640 0. 444 0. 8125 
Thr/T ACT* 1. 348 1.556 1.120 1. 300 1. 449 1. 302 
ACC 1. 072 0. 500 1. 360 1. 048 0. 464 1. 302 
ACA* 1. 060 1. 278 1. 040 1. 096 1. 449 1. 116 
ACG 0. 520 0. 667 0. 480 0. 556 0. 638 0. 279 
Ala/A GCT* 1. 504 2.025 1. 500 1. 456 2. 085 1. 222 
GCC 0. 996 0. 642 0. 714 1. 040 0. 563 0. 889 
GCA 0. 928 0. 790 0. 929 0. 936 0. 958 0. 778 
GCG 0. 572 0. 543 0. 857 0. 568 0. 394 1.111 
Tyr/Y TAT 1. 440 1. 500 1. 600 1. 426 1. 405 1. 333 
TAC 0. 560 0. 500 0. 400 0. 574 0. 595 0. 667 
His/H CAT* 1. 348 1.257 1.100 1. 324 1.257 1. 364 
CAC 0.652 0.743 0.900 0. 676 0. 743 0. 636 
G1n/Q CAA* 1. 244 1. 421 1. 059 1. 288 1. 318 1. 091 
CAG 0. 756 0. 579 0. 941 0. 712 0. 682 0. 909 
Asn/N AAT 1. 286 1. 375 0. 950 1. 276 1. 235 0. 971 
AAC 0.714 0. 625 1. 050 0. 724 0. 765 1. 029 
Lys/K AAA* 1.168 1. 127 0. 903 1. 168 1. 228 1. 148 
AAG 0. 832 0. 873 1. 097 0. 832 0. 772 0. 852 
Asp/D GAT* 1.258 1. 389 1. 200 1. 234 1. 450 1. 286 
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GAC 0. 742 0. 611 0. 800 0. 766 0. 550 0. 714 
Glu/E GAA* 1.314 1. 467 1. 414 1. 278 . 381 1. 320 
GAG 0. 686 0. 533 0. 586 0. 722 0. 619 0. 680 
Cys/C TGT* 1. 154 1. 043 1. 000 1. 154 412 1. 200 
TGC 0. 846 0. 957 1. 000 0. 846 0. 588 0. 800 
Arg/R CGT* 0. 906 0. 975 0. 857 0. 900 091 0. 835 
CGC 0. 672 0. 525 0. 980 0. 684 0. 682 0.911 
CGA* 1.158 1. 275 1. 163 1. 164 . 159 1.139 
CGG 0. 846 0. 825 0. 735 0. 804 0. 955 1. 063 
AGA* . 446 1. 800 1. 163 1. 446 1. 432 1.215 
AGG 0. 972 0. 600 1. 102 1. 002 0. 682 0. 835 
Gly/G GGT* 1.216 1. 846 0. 928 1. 168 . 146 1.100 
GGC 0. 624 0. 308 0. 812 0. 616 0. 282 0. 700 
GGA* .316 1.231 1.217 1. 324 1. 296 1. 200 
GGG 0. 848 0. 615 1. 043 0. 892 0. 676 1. 000 


注 : * 表 示 ARSCU>0.08 H. RSCU 值 >1。 
Note: * indicates 人 RSCU>0.08 and RSCU value 21. 


3. 讨论 与 结论 
根据 内 共生 理论 ， 线 粒 体 由 a- 和 蛋白 质 细菌 祖先 进化 CRoger et al., 2017)。 作 为 半 自 主 型 
的 细胞 器 ， 线 粒 体 是 细胞 进行 有 氧 呼吸 的 主要 场所 ， 其 有 自身 的 遗传 表达 系统 ,但 大 多 数 定 
位 于 线粒体 的 功能 蛋白 (9596) 是 由 核 基因 编码 的 (Giegé et al, 2005)。 由 于 其 含有 相对 
独立 的 细胞 质 遗传 信息 , 故 线粒体 基因 组 亦 在 揭示 物种 间 亲 缘 关 系 和 物种 进化 等 方面 具 重要 
价值 。 通过 比较 核 基 因 和 线粒体 基因 在 密码 子 使 用 模式 上 的 差异 , 可 以 预测 真 核 生物 核糖 体 
在 细胞 内 的 定位 。 此 外 , 研究 线粒体 密码 子 的 使 用 特征 可 以 更 好 地 了 解 线粒体 基因 组 的 进化 
过 程 及 主要 影响 因素 。 
同 义 密码 子 的 使 用 偏好 性 是 物种 长 期 演化 的 结果 , 形成 这 种 偏好 性 的 主要 动力 是 自然 选 
择 和 突变 (Duret, 2002) 。 突 变 和 选择 等 多 重 因素 共同 影响 了 大 豆 线粒体 基因 密码 子 使 用 偏 
好 性 的 形成 。 比 较 栽 培 大 豆 和 野生 大 豆 的 ENC-plot、 中 性 绘图 和 PR2-plot 等 分 析 ， 结 果 暗 
示 了 它们 具有 相似 的 密码 子 使 用 模式 ， 这 是 因为 两 个 物种 在 进化 和 亲缘 关系 上 较 近 
(Grantham, et al., 1980)。 但 两 个 物种 在 密码 子 使 用 模式 上 也 存在 一 定 的 差异 。 按 同一 标准 
判断 它们 有 相同 的 最 优 密码 子 ， 也 有 各 自 不 同 的 最 优 密码 子 。 
本 研究 确认 了 栽培 大 豆 的 20 个 和 野生 大 豆 的 21 个 最 优 密码 子 。 其 中 的 18 个 最 优 密码 
子 为 两 个 物种 共有 ， 且 多 以 A RTRA. REKRY 和 野生 大 豆 的 线粒体 编码 基因 在 密 
码 子 第 3 位 的 GC 含量 分 别 为 41.64%、41.92%。 这 与 许多 高 等 植物 的 叶绿体 基因 组 第 3 位 
密码 子 偏好 使 用 A 或 工 碱 基 相 似 (尚明 照 等 , 2011; 傅 建 敏 等 , 2017; 原 晓 龙 等 , 2019; Zhou 
et al., 2008 )。 而 与 线粒体 基因 不 同 ， 大 豆 的 核 基因 最 优 密码 子 被 确定 为 UCC H GCC GKR 
等 ，2011)， 暗 示 了 大 豆 的 核 基因 和 线粒体 基因 在 密码 子 使 用 偏 性 上 的 差异 。 按 照 同 样 的 最 
优 密码 子 计 算 方 法 , 经 比较 分 析 , 普通 野生 稳 和 栽培 大 豆 共有 的 线粒体 基因 组 最 优 密码 子 为 
15 个 ， 普 通 野 生 稻 和 野生 大 豆 共 有 的 线粒体 基因 组 最 优 密 码 子 为 16 个 (金刚 等 ，2019)。 
推测 这 并 非 偶 然 , 而 是 植物 线粒体 基因 组 表达 系统 在 进化 中 保守 性 的 体现 。 尚 需 对 其 他 高 等 
植物 的 线粒体 密码 子 进行 归纳 研究 后 得 出 结论 。 而 非 最 佳 密码 子 可 能 更 多 地 与 其 二 级 结构 相 
X (Chaney, 2017)。 按 照 现 代 的 植物 细胞 质 雄 性 不 育 〈Cytoplasmic male sterility, CMS) 发 
生理 论 ， 细 胞 质 雄 性 不 育 的 发 生 与 线粒体 基因 组 的 重组 变异 有 关 (Tang et al., 2017)。 普 通 
野生 稳 线 粒 体 基因 组 中 细胞 质 雄性 不 育 相 关 基 因 CW-orf307 与 其 线粒体 基因 组 的 密码 子 偏 
好 性 有 所 不 同 ，TCT、CCT、ACA、TIT 和 CAT 等 在 线粒体 基因 组 中 被 认定 的 最 优 密码 子 
在 CW-orf307 基因 中 的 使 用 频率 并 不 高 ， 上 暗示 了 CW-orf307 独特 的 起 源 〈 金 刚 等 ，2019 )。 
但 野生 大 豆 中 的 相关 情况 尚 需 对 其 线粒体 基因 组 中 的 细胞 质 雄性 不 育 基因 进行 鉴定 并 分 析 
后 才能 确定 ,本 研究 通过 分 析 比 较 野 生 大 豆 和 栽培 大 豆 线粒体 基因 组 编码 基因 的 密码 子 使 用 
特征 ， 将 有 助 于 进一步 加 深 对 大 豆 属 植物 的 线粒体 基因 表达 系统 进化 的 理解 。 
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